دسته بندی متون یا طبقه بندی (classifying)
نوشته شده توسط : مطلب پروژه

  عبارتست از تشخیص موضوع اصلی یک سند.
* هدف از طبقه بندی، ایجاد امکان استفاده از مدلی بر ای پیش بینی کلاسی از اشیا است که با عنوان ناشناخته برچسب خورده است
* طبقه بندی یک فرایند ۲ مرحله ای است:
الف- ساخت مدل
ب- استفاده از مدل

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


طبقه بندی در مواردی مانند: تعیین اعتبار، مشخص نمودن گروه هایی از مشتری ها که خصوصیات و علایق مشترکی دارند، تشخیص میزان تاثیر داروها و موثر بودن درمان بکار می رود. در ادامه طبقه بندی و برخی روش ها و الگوریتم های آن به طور کامل توضیح داده شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


زمانی که corpus به ماتریس inner point distance تبدیل شد می توان از کلاسیفایر های ساده نزدیک ترین همسایه برای داده ها استفاده کرد. از آنجایی که ابعاد بالای موروثی ویژگی های اسناد، مانع از یک رویکرد ساده برای استفاده از درخت های دسته بندی مبتنی بر ویژگی می شوند می توان یا از رویکرد های دسته بندی دیگر استفاده کرد یا این درخت ها را در ترکیب با استراتژی های کاهش بعد به کار برد. در توسعه دسته بندی برای اسناد متنی چالش هایی وجود دارد مثلا یکی از این چالش ها برخورد با مترادف ها و کلمات چند معنی است. چالش دیگر ایجاد دسته بندی هایی است که بتواند مجوعه های بزرگ اسناد را دسته بندی کند. یا چالش دیگر دسته بندی منابع اسناد در حال استریم است. مانند اخبار که بصورت مداوم پخش می شوند. بد نیست اشاره کنیم که تکنیک های طبقه بندی بر خلاف خوشه بندی، تکنیک های با ناظر یا supervised هستند.

هدف از طبقه بندی متون نسبت دادن کلاسهای از پیش تعریف شده به اسناد متنی است. در طبقه بندی یک مجموعه آموزشی از اسناد، با کلاس های معین وجود دارد. با استفاده از این مجموعه، مدل طبقه بندی معین شده و کلاس سند جدید مشخص میگردد. برای اندازه گیری کارایی مدل طبقه بندی، یک مجموعه تست، مستقل از مجموعه آموزشی در نظر گرفته میشود. برچسبهای تخمین زده شده با برچسب واقعی اسناد مقایسه میشود. نسبت اسنادی که به درستی طبقه بندی شده اند به تعداد کل اسناد، دقت نامیده میشود. در ادامه برخی از تکنیک های کلاسیفایینگ یا طبقه بندی به اختصار معرفی می شوند:

درختهای تصمیم
برای ساختن این درختها از یک استراتژی تصمیم و غلبه استفاده میشود.
درخت تصمیم متوالی بر پایه طبقه بندی
در این مدل هر یک از گره های داخلی به عنوان تصمیم گیرنده و هر یک از برگها به عنوان یک برچسب کلاس می باشند. این مدل از دو مرحله تشکیل شده است: ۱ القای درخت- که از مجموعه آموزشی داده شده القا می شود.۲- هرس درخت- درخت القا شده را با از بین بردن هر وابستگی آماری روی مجموعه داده آموزشی خاص، کوتاه تر و قوی تر میکند.

روش Hunt
ساخت درخت به صورت بازگشتی و با استفاده از راهبرد حریصانه تقسیم و حل اول عمق میباشد.

الگوریتم C4.5
مراحل کلی الگوریتم C4.5  برای ساخت درخت تصمیم :
۱) انتخاب ویژگی برای گره ریشه
۲) ایجاد شاخه برای هر مقدار از آن ویژگی
۳) تقسیم موارد با توجه به شاخه ها
۴)تکرار روند برای هر شاخه تا زمانی که تمام موارد شاخه، کلاس یکسان داشته باشند.
انتخاب هر ویژگی به عنوان ریشه بر پایه بالاترین حصول از هر صفت است.

الگوریتم

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

SPRINT

SPRINT یک درخت تصمیم طبقه بندی کننده سریع و مقیاس پذیر است. این الگوریتم مجموعه داده آموزشی را به صورت بازگشتی با استفاده از تکنیک حریصانه اول به پهنا تقسیم میکند تا وقتی که هر قسمت متعلق به گره برگ یا کلاس یکسان باشد. این روش، از مرتب سازی داده ها استفاده میکند و محدودیتی برای حجم داده ورودی نداشته و میتواند بر روی الگوهای سریال یا موازی برای جایگزینی داده های خوب و با توازن بار اجرا شود. دو ساختار داده ای را به کار می گیرد:  لیست داده ها و پیشینه نما، که مقیم در حافظه نیستند و این مسئله SPRINT  را برای مجموعه داده های بزرگ مناسب می سازد. بنابراین همه محدودیتهای حافظه بر داده ها را حذف می کند. این الگوریتم صفت های پیوسته و طبقه ای را به کار میبرد.

فرمول بندی موازی از درخت تصمیم بر پایه طبقه بندی
هدف این روش مقیاس پذیری در زمان اجرا و حافظه مورد نیاز است. فرمول بندی موازی برمحدودیت حافظه که برای الگوریتم های ترتیبی مشکل ساز است غلبه می کند، بدین صورت رسیدگی به مجموعه داده های بزرگ تر بدون نیاز به دیسک I/O افزونه را ممکن میسازد. همچنین فرمول بندی موازی سرعت بالاتری نسبت به الگوریتم سریال ارائه میکند. انواع فرمول بندی های موازی برای ساخت درخت تصمیم طبقه بندی:
رویکرد ساخت درخت همزمان
رویکرد ساخت درخت قسمت بندی شده
فرموله بندی موازی ترکیبی
طبقه بندی کننده ساده بیزی
یک روش طبقه بندی احتمالی است. کلاس یک سند متناسب با کلماتی است که در یک سند ظاهر شده اند.

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com


نزدیکترین همسایه K طبقه بندی کننده
راه دیگر این است که اسنادی از مجموعه آموزش انتخاب شوند که مشابه سند جاری هستند. کلاس سند جاری، کلاسی است که اکثریت اسناد مشابه، دارند. در این روش K تا سند از مجموعه آموزش که بیشترین شباهت (بر اساس معیار شباهت تعریف شده) را به سند جاری دارند به عنوان همسایگان آن سند انتخاب می شوند. این طبقه بندی به سه مورد اطلاعاتی نیاز دارد: ۱ مقدار K 2) مجموعه ای از داده های برچسب دار، که به عنوان داده های آموزشی مورد استفاده قرار گیرند و ۳) یک معیار شباهت.
یک روش ساده برای معیار شباهت شماردن تعداد کلمات مشترک در دو سند است. این روش باید برای اسناد با طول مختلف نرمال سازی شود. یک روش استاندارد برای اندازه گیری شباهت، شباهت کسینوسی است.

شبکه های عصبی

 

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

در مسائل مربوط به طبقه بندی، شبکه عصبی با داشتن ورودی ها و خروجیهای مشخص باید تشخیص دهد که هر ورودی با کدام طبقه از خروجی های تعریف شده بیشترین تطابق را دارد . در شبکه پرسپترون چند لایه از روش آموزش با نظارت استفاده می شود. هدف از آموزش شبکه به حداقل رساندن خطای تولید شده میباشد که براساس تنظیم وزنهای شبکه انجام میشود. معمولا از الگوریتم آموزش پس انتشار استفاده میشود. در این الگوریتم پس از محاسبه مقدار خطا در لایه خروجی مقادیر وزنها در لایه پنهان در جهت کاهش خطا تنظیم میشوند.
استفاده از شبکه های عصبی مزایا و معایبی  دارند که مزایای آن به اختصار عبارتند از
روش های خود تطبیقی برای مبنای داده هستند. میتوانند هر تابعی را با دقت دلخواه تخمین بزند.  مدلهای غیر خطی هستند.  با دادههای ناقص یا گم شده به خوبی کار میکنند.
و معایب شبکه های  عصبی عبارتند از: برآورد یا پیش بینی خطا انجام نمیشود.  چگونگی برآورد شدن روابط میان لایه های پنهان را نمی توان  معین کرد.

(SVM) ماشین بردار پشتیبانی
الگوریتم طبقه بندی یا دسته بندی مشاین بردار پشتیبان که از روش های یادگیری با نظارت استفاده می کند که در مقاله دیگری به طور کامل در مورد این روش توضیح داده شده است.

ژنتیک

09367292276
09367292276
azsoftir@gmail.com
azsoftir.com
09367292276
09367292276
azsoftir@gmail.com
azsoftir.com

یک روش بهینه سازی اکتشافی است که از قوانین تکامل بیولوژیک طبیعی تقلید میکند. الگوریتم ژنتیک قوانین را بر روی جواب های مسأله (کروموزومها)، برای رسیدن به جوابهای بهتر، اعمال میکند. در هر نسل به کمک فرآیند انتخابی متناسب با ارزش جوا بها و تولید مثل جواب های انتخاب شده و به کمک عملگرهایی که از ژنتیک طبیعی تقلید شده اند، تقریب های بهتری از جواب نهایی بدست میآید. این فرایند باعث میشود که نسلهای جدید با شرایط مساله سازگارتر باشند. به منظور حل هر مسئله، ابتدا باید یک تابع برازندگی برای آن ابداع شود. این تابع برای هر کروموزوم، عددی را بر می گرداند که نشان دهنده شایستگی آن کروموزوم است. در طی مرحله تولید نسل ازعملگرهای ژنتیکی استفاده می شود که با تأثیر آنها بر روی یک جمعیت، نسل بعدی تولید میشود. عملگرهای انتخاب، آمیزش و جهش معمولاً بیشترین کاربرد را در الگوریتم های ژنتیکی دارند . تعدادی شروط خاتمه برای الگوریتم ژنتیک وجود دارد از جمله: تعداد مشخصی نسل، عدم بهبود در بهترین شایستگی جمعیت در طی چند نسل متوالی و عدم تغییر بهترین شایستگی جمعیت تا یک زمان خاص.
در اکثر مواقع طبقه بندی کننده های SVM و K نزدیک ترین همسایه کارآیی بالایی را ارائه میکنند و پس از آن ها شبکه عصبی، درخت های تصمیم و روش ساده بیزی قرار گرفته اند.





:: موضوعات مرتبط: newdatamining1 , ,
:: بازدید از این مطلب : 187
|
امتیاز مطلب : 0
|
تعداد امتیازدهندگان : 0
|
مجموع امتیاز : 0
تاریخ انتشار : پنج شنبه 19 مرداد 1396 | نظرات ()
مطالب مرتبط با این پست
لیست
می توانید دیدگاه خود را بنویسید


نام
آدرس ایمیل
وب سایت/بلاگ
:) :( ;) :D
;)) :X :? :P
:* =(( :O };-
:B /:) =DD :S
-) :-(( :-| :-))
نظر خصوصی

 کد را وارد نمایید:

آپلود عکس دلخواه: